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面向 中 文敏 感 词 变 形体 的 识别 方法 研究 
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摘 要: 为 净化 网 络 环境 ， 需 要 对 网 络 信息 进行 审查 。 针 对 网 络 信息 中 所 包含 的 敏感 词 ， 尤 其 是 中 文敏 感 词 变形 体 的 
识别 成 为 了 一 个 迫切 需要 解决 的 问题 。 通 过 分 析 汉 字 的 结构 和 读音 等 特征 提出 了 一 种 中 文敏 感 词 变形 体 的 识别 方法 。 
该 方法 针对 词 的 拼音 、 词 的 简称 和 词 的 拆 分 三 种 敏感 词 变 形体 分 别 设计 了 基于 易 混 拼音 分 组 的 敏感 词 的 识别 算法 
(SPGR)、 字 符 串 的 简称 识别 算法 (SNR) 和 基于 KMP 的 汉字 拆 分 识别 算法 〈(WS-KMP)， 有 效 提高 了 敏感 词 审查 的 
准确 率 和 效率 。 实 验 结 果 表 明 ， 该 方法 在 识别 中 文敏 感 词 变形 体 的 时 候 有 较 高 的 查 全 率 和 查 准 率 。 
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Study on identification method for change form of Chinese sensitive words 
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Abstract: To purify the network environment, the network information needs to be reviewed. Recognizing the sensitive words 
in the network information, especially the change form of Chinese sensitive words, is an urgent problem to be solved. By 
analyzing the structure and pronunciation of Chinese characters, this paper proposes a method of recognition of the change form 
of Chinese sensitive words. This method has designed sensitive word recognition algorithm based on the grouping of confusing 
pinyin, String abbreviation recognition algorithm and recognition algorithm based on KMP's character split recognition 
algorithm for the pinyin of word , the abbreviation of word and the split of word, and improve the accuracy and efficiency of 


the review. The experimental results show that the proposed method has higher recall and precision when recognizing the change 


form of Chinese sensitive words. 
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0 引言 测 效 率 。 缺 点 是 对 敏感 词 变 形体 无 处 理 能 力 。 
当前 ， 对 中 文敏 感 词 变 形体 的 识别 方法 的 研究 还 处 于 起 步 
随 着 互联 网 的 高 速 发 展 ， 各 种 各 样 的 信息 资源 呈 指 数 级 增 阶段， 相关 研究 成 果 并 不 是 太 多 ， 文 献 [4] 针 对 变异 的 敏感 词汇 
长 ， 非 法 言论 〈 如 黄 赌 毒 、 恐 怖 、 暴 力 血 腥 信 息 ) 经 常 充斥 其 ”提出 了 一 种 方法 。 将 某 特殊 字符 转换 成 形状 相似 的 字母 ， 然 后 
中 [3 ， 这 些 不 良 信息 通常 带 有 一 些 敏 感 词汇 ， 从 而 很 可 能 引起 ”再 进行 检测 。 例如 : 将 字符 “@ ”转换 成 字母 “a”, 遇 到 “@rse” 
不 良 的 连锁 反映 ， 对 国家 安全 、 社 会 稳定 和 网 络 环境 的 健康 形 ， 词 后 , 将 这 个 词 换 成 “arse” 来 处 理 。 文 献 [5] 采 用 机 器 学 习 的 方 
成 严重 威胁 ， 造 成 巨大 的 负面 影响 。 因 此 ， 对 于 人 敏感 词 的 识别 ”法 ,通过 采用 bigram、 词 干 等 作为 特征 值 来 对 文本 信息 做 分 类 分 
已 经 成 为 一 个 迫切 需要 解决 的 研究 课题 。 析 ， 以 检测 出 变形 体 。 文 献 [6] 利 用 贝 叶 斯 滤波 技术 对 恶意 内 容 
当前 ， 对 敏感 词 的 识别 研究 较为 成 熟 ， 一 般 是 基于 敏感 词 。 进行 检测 ,利用 近似 的 字符 串 匹 配 技术 来 提高 检测 恶意 内 容 的 
表 进 行 。 基 本 思想 是 对 待 检测 的 文本 进行 检索 ， 若 其 中 含有 敏 有 效 性 。 文献 [7] 提 出 了 一 种 基于 语音 的 字符 串 匹 配 算法 ， 该 算 
感 词 ， 则 系统 会 判定 该 文本 为 需要 审查 的 文本 。 这 种 方法 实现 。 法 用 于 解决 发 音 相 似 的 字符 串 的 匹配 。 这 些 方法 对 英文 字符 有 
起 来 比较 简单 , 但 查找 的 效率 不 高 。 对 此 , 文献 [3] 提 出 一 种 ST 较 好 的 处 理 效果 ， 但 没有 将 中 文敏 感 词 变 形体 考虑 在 内 。 
DFA 算法 ,通过 敏感 词 拼音 的 第 一 个 字母 来 构建 敏感 信息 决策 由 此 可 见 ， 寻 找 更 有 效 的 中 文敏 感 词 变形 体 识别 算法 是 当 
树 ， 其 优点 是 不 依赖 敏感 信息 语料库 ， 能 够 提高 敏感 信息 的 检 ， 务 之 急 。 本 文 结合 英文 字符 串 变形 体 的 识别 方法 ， 提 出 了 一 种 
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录用 稿 


中 文敏 感 词 变 形体 识别 方法 。 该 方法 结合 了 汉字 的 发 音 与 结构 
特征 , 在 识别 的 过 程 中 加 入 拼音 、 简 称 、 拆 分 三 种 变形 体形 式 ， 
能 够 有 效 的 识别 出 中 文敏 感 词 及 其 相关 的 变形 体 。 


1 ”相关 算法 


现 有 的 字符 串 识别 算法 有 基于 相似 度 的 匹配 方法 和 精准 匹 
配 的 模式 匹配 算法 。 基 于 编辑 距离 的 相似 度 的 匹配 方法 能 够 很 
好 体现 出 一 个 字符 串 变 为 男 一 个 字符 串 所 需 的 “代价 ”“ 代 价 ” 
越 小 相似 度 越 高 。 精 确 匹 配 常用 的 是 KMP 算法 ， 相 较 与 朴素 
的 模式 匹配 算法 减少 了 字符 串 匹 配 次 数 。 
1.1 基于 编辑 距离 的 相似 度 计 算 

1965 年 俄罗斯 科学 家 Vladimir Levenshtein 提出 了 编辑 
离 (edit distance ) 概念 外 ,又 称 为 Levenshtein 距离 ， 是 指 两 个 字 
符 串 之 间 ， 由 一 个 转 成 另 一 个 所 需 的 最 少 编辑 操作 次 数 。 许 可 
的 编辑 操作 包括 将 一 个 字符 蔡 换 成 另 一 个 字符 , 插入 一 个 字符 ， 
删除 一 个 字符 。 编 辑 距离 被 经 常用 于 计算 两 个 字符 串 之 间 的 差 
异 程度 , 编辑 距离 越 小 两 个 字符 串 的 相似 度 越 大 上 各 。 本 文 利用 
编辑 距离 计算 相似 度 、 并 利用 归 一 化 方法 将 其 映射 到 [0,1] 区 间 : 
edit(length(s), length(a)) 
max(length(s), length(a)) 


Similar(s,a) =1- 


其 中 : edit(length(s),length(a)) 表示 字符 串 s 与 1 的 编辑 距离 ， 


length(s) 表示 字符 串 * 的 长 度 ， max(length(s),length(a)) 表示 
length(s) 与 length(a) 中 长 度 较 大 的 部 分 。 
1.2 KMP 算法 

1969 年 Knuth、Morris 和 Pratt 提出 快速 单 模式 匹配 KMP 
算法 [1。 它 的 主要 思想 是 : 每 当 一 次 匹配 过 程 中 出 现 字 符 不 匹 
配 时 ， 不 需要 回 退 指针 ， 而 是 利用 已 经 得 到 的 “部 分 匹配 ”的 
结果 将 模式 向 右 移动 尽 可 能 远 的 一 段 距 离 ， 继 续 匹 配 过 程 。 

设 目 标 串 表示 为 $= S[si,s,,…,s,] ， 长 度 为 n; 模式 串 表 示 
为 A= Aai,a,,…,a,]， 长 度 为 m ; 并 且 满 足 条 件 n>m。 如 果 
存在 i 使 得 S[i] = A[1]，S[i+1]= A[2]，…， S[itm-1]= 4[m]， 
则 匹配 成 功 ,模式 串 P 就 出 现在 目标 串 T 的 i 处 。 若 Ss[i]=A4[j]; 
则 继续 比较 s[i+]=4[j+1]; 若 S[]# 4[]] ， 则 i 值 不 变 , j 为 
next() ， 再 进行 下 一 轮 的 匹配 。 其 中 next0) 的 值 表示 
[a1,a,,…,aj 1] 中 后 缀 等 于 相同 字符 序列 的 前 级 的 最 长 后 级 的 
长 度 ， 对 next 数组 的 定义 如 下 : 

-1 ， 当 7 =1 夺 
Next()) =47max[K|0< 大 < 广 忆 疙 在 } 
0， 嘉 仍 信 交 

在 下 一 次 匹配 时 只 需 确定 j 的 位 置 即 可 ， 从 而 提高 模式 匹 
配 的 效率 。 


2 敏感 词 变形 体 


本 文 研究 的 敏感 词 变形 体 包括 以 下 三 个 模式 : 一 是 词 的 
音 模式 。 在 中 文中 , 同一 个 汉语 拼音 可 能 对 应 多 个 不 同 的 汉字 。 
且 由 于 不 同 省 市 地 区 方言 的 差异 性 ， 导 致 了 一 些 带 有 地 域 性 特 
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音 容易 被 混淆 ,如 某 些 地 区 很 难 分 辨 4”" 和 “n”。 二 个 
是 词 的 简称 模式 。 在 人 


门 的 日 常生 活 中 ， 对 于 字数 较 多 的 词 ， 


经 常会 以 简称 的 形式 替代 。 据 统计 , 在 汉语 新 闻 文 章 里 , 在 20% 


左右 的 句子 可 能 含有 缩 略 语 "2 。 第 三 个 是 词 的 拆 分 模式 。 由 于 
现在 各 个 网 络 平台 对 信息 的 审查 越 来 越 严 格 ， 网 络 上 出 现 了 通 
过 拆字 的 方式 来 逃避 审查 ， 比 如 * 林 ”可 以 拆 成 * 木 木 史 3。 以 词 


“贩卖 毒品 ”为 例 ， 其 变形 体 的 县 体 结构 如 图 1 所 示 。 
贩卖 毒品 
拼音 : fanmaidupin 简称 (1) 由 每 拆 分 : 贝 反 卖 毒 口 口 口 
(2) fd 
并 音 :fandu 拆 分 : 由 反 毒 | 


图 1 词 变 形体 结构 图 


为 了 更 好 地 识别 出 敏感 词 的 变形 体 ， 


词 列 表 提 出 了 敏感 词 


本 文 基于 已 有 的 敏感 
变形 体 的 识别 算法 (以 下 简称 为 DFR 


(deformation form recognition ) 算法 )， 对 敏感 词 变 形体 进行 识 


别 。 并 且 对 不 同 的 变 用 
一 种 基于 易 混 拼音 分 颖 


体形 式 给 出 了 不 同 的 处 理 方法 ， 设 计 了 
有 的 敏感 词 识别 算法 (SPGR)， 通 过 相似 


度 的 计算 识别 出 敏感 词 的 拼音 变形 体 ， 构 建 了 字符 串 的 简称 识 
别 算法 (SNR), 通过 敏感 词 的 首 字母 和 缩写 规则 识别 出 敏感 词 


的 简称 变形 体 ， 提 出 


了 一 种 基于 KMP 的 汉字 拆 分 识别 算法 


(WS-KMP), 通过 分 让 


汉字 的 结构 对 拆 分 后 的 敏感 词 进行 模式 


匹配 实现 敏感 词 拆 分 变形 体 的 识别 。 


3 ”敏感 词 变 形体 整理 及 处 理 方法 


3.1 词 的 拼音 模式 


前 ， 存 在 很 多 利用 


有 与 敏感 词 中 读音 相似 的 汉字 来 蔡 


换 敏 感 词 中 汉字 的 情况 ， 例 如 “去 死 〈qusi)” 为 敏感 词 ， 恶 意 


(qushi)” 一 词 来 蔡 代 


用 户 为 了 避 开 网 络 平台 的 审查 ， 多 数 情 况 下 会 使 用 


[1 去 屎 
。 这 样 ， 不仅 表 达 了 其 含义 ， 也 不 会 被 平 


台所 追究 。 为 了 识别 出 敏感 词 拼音 的 变形 体 ， 本 文 将 敏感 词 与 
疑似 敏感 词 转换 成 音 码 并 通过 编辑 距离 计算 其 相似 度 ， 判 断 该 


词 是 否 为 敏感 词 。 


3.1.1 音 码 编 码 (soundcode SC) 


音 码 即 为 汉字 拼音 的 编码 方式 ， 能 够 用 
音 特征 ， 从 而 表示 出 汉字 的 读音 特征 。 


汉字 的 


编码 形象 的 表示 出 
基于 音 码 可 将 


汉字 的 拼音 转换 成 相应 的 字符 序列 ， 其 结构 如 图 2 所 示 。 


1 
Ei 
EZ3 
图 2 音 码 结构 图 
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本 文采 用 三 位 音 码 的 的 形式 ， 利 用 字母 对 其 中 每 一 位 音 码 
进行 编码 。 三 位 音 码 中 , 设 第 一 位 为 声母 位 , 第 二 位 为 韵母 位 ， 
第 三 位 为 声调 位 。 根 据 1958 年 第 一 届 全 国人 民 代表 大 会 第 五 
次 会 议 批准 公布 推行 的 《汉语 拼音 方案 》09， 其 中 包含 声母 23 
个 ， 韵 母 34 个 ， 为 了 方便 编码 ， 声 调 分 为 阴平 、 阳 平 、 上 声 、 
去 声 和 轻声 。 声 母 、 韵 母 和 声调 的 部 分 编码 如 表 1、 表 2、 表 3 
所 示 。 


表 1 声母 编码 表 
声母 b p m f d ft 


编码 A B C D EF 
母 编码 表 


韵母 a o ee ai ei ao 


流 
DL 
于 


编码 A B C D E F 

表 3 声调 编码 表 
声调 ”阴平 阳平 上 声 去 声 轻声 
编码 A B C D E 


通过 以 上 编码 ， 可 将 汉字 转换 成 一 系列 的 字符 序列 ， 以 便 
进行 下 一 步 的 计算 和 比较 。 以 “海洛因 ”为 例 ， 基 于 以 上 编码 
表 得 到 的 音 码 为 “KDCHXDPTA”。 

3.1.2 易 混 拼音 分 组 

文献 [15] 提 出 了 一 种 基于 语音 的 字符 串 匹 配 算法 ， 该 算法 
用 于 解决 英文 发 音 相似 的 字符 串 之 间 的 匹配 问题 ,基于 该 算法 ， 
本 文 提 出 将 中 文 易 混 拼 音 进 行 分 组 ， 并 对 所 有 分 组 赋予 了 一 个 
相似 性 因子 (该 值 区 间 为 [0,1] ， 其 值 越 低 说 明 字符 串 的 相似 度 
就 越 高 )。 

易 混 拼音 主要 分 为 三 种 : 平 舌 音 与 出 舌 音 、 边 音 与 鼻音 、 
前 鼻音 与 后 鼻音 。 表 5 是 易 混 拼音 分 组 的 部 分 数据 ， 该 表 的 # 
音 分 组 以 及 相似 性 因子 参考 了 文献 [12]。 每 组 相似 性 因子 代表 
同 组 拼音 被 蔡 换 成 同一 组 中 的 另 一 个 拼音 需要 付出 的 “代价 六 
若 两 个 拼音 相同 ， 则 它们 的 “代价 ”就 是 0， 若 两 个 拼音 不 相 
同 ， 并 且 也 没有 在 同一 个 组 里 面 ， 那 么 他 们 的 “代价 ” 是 1。 通 
过 对 汉语 拼音 的 研究 ， 部 分 分 组 情况 如 表 4 所 示 。 

表 4 易 混 拼音 分 组 


易 混 拼音 zzh nl eneng 


音 码 SR GH JK 
相似 性 因子 ”0.5 0.5 0.5 


3.1.3 基于 易 混 拼音 分 组 的 敏感 词 识别 算法 

设 有 敏感 词 S 和 疑似 敏感 词 A， 通 过 建立 unicode 的 编码 
与 汉语 拼音 对 应 的 集合 把 汉字 转换 成 带 有 声调 的 拼音 (Pinyin4j 
为 汉字 转 拼音 的 java 工具 类 )， 然 后 根据 音 码 表 将 其 转换 成 音 


i,j=0 
j,i=0 

edit (i, j) = edit(i,j—1)+1,(i>0,j> 
mindedit(i—1,j)+1,(i>0,j> 


0) 
0) 


edit(i—1,j—1)+r(s,t) (>07>0) 


0 si=aj 


"(S007)= 1 sa, 
i j 


采用 易 混 拼音 分 组 之 前 ， 函 数 r(s,,aj) 定义 如 下 : 


采用 易 混 拼音 分 组 之 后 ， 函 数 TGSi,ai) 定义 如 下 : 


0 si=aj 


r(si,a))=11 ssa 辣 组 


1 s; 关 qj 及 不 局 级 
其 中 : a 是 字符 s 和 a 所 在 组 的 相似 性 因子 。 相 似 度 计算 公式 


Similar(s,a) =1- edit(length(s), leng 


th(a)) 


max(length(s), length(a)) 

为 了 识别 出 敏感 词 的 拼音 变形 体 ， 本 文 提出 基于 易 混 拼音 

分 组 的 敏感 词 的 识别 算法 (以 下 简称 为 SPGR (Similar Pinyin 
Grouping Recognition ) 算法 )。 算 法 具体 的 执行 过 程 如 算法 1 所 


示 。 

算法 1. SPGR algorithm 
输入 :敏感 词 S， 疑 似 敏感 词 变形 体 A 
输出 :A 是 否 为 S 的 拼音 变形 体 
1. 若 S.equals(A) 为 tue， 则 S 与 A 为 同一 


s 与 a， 且 i=length(s) ，j=length(a) ; 
3. 通 过 方法 edit(i, j) 得 到 音 码 的 编辑 距离 ; 


中 


字 付 串 ，end. 
2. 若 S.equal(A) 为 false， 则 根据 编码 表 获 取 S 与 A 的 音 码 


通过 方法 max(i, j) 获取 音 码 长 度 较 大 的 部 分 ; 


5. 计 算 相 似 度 Similar(s,a) ; 

6. 若 Similar(s,a) > 6 (9 为 阔 值 )， 则 字符 
的 拼音 变形 体 ，end. 

7. 若 Similar(s,a) <9 ， 则 字符 串 A 不 为 字 
形体 ， 算 法 结束 ，end. 


符 串 S 的 


串 A 为 字符 串 S 


拼音 变 


以 “海洛因 ”和 “ 海 诺 因 ” 为 例 ， 设 g 为 90%， 其 拼音 分 
别 为 “hailuoyin ”和 “hainuoyin ”, 转 换 成 音 码 之 后 为 


“KDCHXDPTA” 和 “KDCGXDPTA” 采用 易 


相似 度 为 88.89%, 之 后 为 94.44%, 相似 度 明 显 提 


则 “ 海 诺 因 ” 为 “海洛因 ”的 拼音 变形 体 。 
3.2 词 的 简称 模式 
32.1 词 的 简称 


混 # 音 分 


组 之 前 


高 且 大 了 


六 90%， 


词 的 简称 模式 包括 首 字母 缩写 和 词 的 缩写 。 


其 中 首 


写 如 “法 轮 功 ”缩写 为 “fg”。 


码 s 和 a 且 length(s)=iG>0)， 


length(a) = jG > 0) ,其 编辑 距 为 


词 的 缩写 的 一 般 分 为 三 种 形式 :压缩 、 节 略 和 统 括 09， 其 中 


字母 缩 


又 以 压缩 和 节 略 的 组 合生 成 模式 最 为 常见 。 压 缩 ， 是 指 把 全 称 


分 割 为 几 个 词语 ， A 个 词语 中 抽取 最 能 代表 原 义 的 汉字 


保留 ， 例 如 “贩卖 \ 毒 品 ”的 简称 为 “贩毒 ”; 节 略 是 指 在 全 称 中 
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直接 省 去 部 分 词语 ， 留 下 另 一 部 分 词语 作为 简称 ， 例 如 “复旦 
\ 大 学 ”的 简称 为 “复旦 ”。 压缩 和 节 略 的 基本 思想 都 是 从 全 称 中 
选取 部 分 汉字 或 者 词语 重组 形成 简称 。 在 重组 的 过 程 中 ， 字 序 
一 般 不 会 发 生 改 变 。 简 称 中 的 汉字 全 部 包含 于 词 的 全 称 中 ， 
此 ， 找 到 词 全 称 的 子 集 就 可 以 找到 其 简称 。 如 : 中 文字 符 串 
S=s553…5,(n>1) 是 由 n 个 汉字 构成 ,存在 另外 一 个 由 m 个 
汉字 构成 的 字符 串 A=aja,…a,(1 三 m < n)， 对 于 任何 一 个 字 
a eA(U<i<m)， 都 有 a,=s,(1<i<m,i<j<n)， 且 随 着 i 值 的 
递增 ，j 也 呈 递增 趋势 ， 则 称 A 为 S 的 简称 。 
3.2.2 敏感 词 的 简称 识别 算法 

为 了 准确 识别 出 敏感 词 的 简称 ， 本 文 提出 了 敏感 词 的 简称 
识别 算法 (以 下 简称 为 SNR (Short Name Recognition ) 算法 )。 
对 于 敏感 词 首 字 母 缩写 的 识别 ， 首 先 利 用 Pinyin4j 获取 敏感 词 
与 疑似 敏感 词 的 的 首 字母 ,然后 再 对 首 字母 进行 字符 串 的 比 对 ，; 
对 于 敏感 词 缩写 的 识别 ， 将 疑似 敏感 词 的 每 个 字符 在 敏感 词 中 
按照 顺序 进行 匹配 。 算 法 具体 的 执行 过 程 如 算法 2 所 示 。 
算法 2. SNR algorithm 

输入 : 敏感 词 S， 疑 似 敏感 词 变 形体 A 
输出 : A 是 否 为 S 的 简称 变形 体 
字母 S”, 若 S =A, 则 字符 串 A 为 字符 串 S 的 简称 ， 
end. 


2. 根 据 字符 串 S 和 待 判断 字符 串 A 的 有 序 集合 S$ = (sis,…s,,) 和 


m 


TH 


Ud 


bm 
beay 


1. 获 取 字 符 串 


A=(ala,…a,) 得 到 ym = length(S), n= {length(A); 
3. 关 mm>n ,设计 分 别 为 S,A 的 下 标 ， 初 始 值 都 为 0; 
4 着 i<m&&&j <1 广 区 S = 4 则 i++，7++， 继 续 执行 步骤 4; 
5. 若 i<m&&j<n&&s,z A;， 则 j++， 跳 到 步 又 4; 
6. 若 i> mm]| j>n， 则 跳出 循环 ; 
j 了 =n ;, 则 字符 串 A 为 字符 串 S 的 简称 ，end. 
8. 若 j 关 n ， 则 字符 串 A 不 为 字符 串 $ 的 简称 ，end. 
以 字符 囊 “ 上 海 交 通 大 学 ”， 待 判断 字符 串 “ 交 大 ”为 例 ， 
可 以 得 到 S= (上 海 交通 大 学 )，A= (交大 )， 开始 5,z AJS 下 


和 久 
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符号 中。 根据 以 上 汉字 特征 对 敏感 词 列表 中 的 汉字 进行 人 工 拆 
分 并 采用 区 位 码 进行 编码 形成 汉字 拆 分 表 。 如 表 5 所 示 。 
表 5 汉字 拆 分 表 


汉字 ”区 位 码 ” 拆 分 区 位 码 
法 2308 去 6763 4005 
秃 4526 禾 几 2644 2824 
E 2590 口 玉 3158 5181 


3.3.2 基于 KMP 的 敏感 词 拆 分 识别 算法 

为 了 识别 出 敏感 词 拆 分 的 变形 体 , 本 文 提出 了 基于 KMP 的 
汉字 拆 分 识别 算法 (以 下 简称 为 WS-KMP (Word Split KMP) 
算法 )， 首 先 根据 汉字 拆 分 表 把 敏感 词 S 与 疑似 敏感 词 变 形体 
A 进行 拆 分 并 转换 成 相应 的 区 位 码 , 然 后 采用 模式 匹配 KMP 算 
法 进行 匹配 。 算 法 具体 的 执行 过 程 如 算法 3 所 示 。 
算法 3. WS-KMP algorithm 
输入 :敏感 词 S， 疑 似 敏感 词 变形 体 A 
输出 :A 是 否 为 包含 于 $ 的 拆 分 变形 体 
1. 按 照 汉 字 拆 分 表 将 字符 串 S 和 待 判断 字符 串 A 进行 拆 分 ， 得 到 其 区 
位 码 S=(sisy…s,,) 和 A=(ala,…a,); 


XxX, 


2.m= length(S), n= length(A):; 
3. 若 m>n，[ 匹 配 不 成 功 ，end. 
4. 若 m<n， 则 S=(sis,…s,) 为 目标 串 ， 


m 


A= (ala,…a,) 为 模式 


串 ， 采 用 KMP 算法 进行 匹配 ; 
5. 若 存在 sis,…s,, = 40 .….4wi 1 ;还 配 成 功 ，end. 
6. 阁 不 存在 sis,…s, = 00 .0 ， 匹 配 失败 ，end. 

以 敏感 词 “海洛因 吗啡 > 和 疑似 敏感 词 “ 口 马 口 非 ”为 例 ， 
首先 将 两 个 词 进行 拆 分 ， 结 果 为 “》 每 y 各 口 大 口 马 口 非 ” 和 
马 口 非 ”， 获 取 相 应 的 区 位 码 S= 
( 6763353167632487315820833158347731582339 ) ， A= 
(3158347731582339)， 采 用 模式 匹配 KMP 算法 进行 匹配 。 首 
先 s A ，S 下 标 每 次 向 右 移动 一 位 继续 比 对 直到 5s, =4 ， 然 
后 S 与 A 下 标 同时 向 右 移动 一 位 8,= 上 4 ， 根 据 NextG) 函数 确 


标 向 右 移动 一 个 单位 ， 继续 比 对 直到 $ = 4 ， 此 时 $ 和 和 A 下 标 
同时 向 右 移 动 一 个 单位 ，s, z 4,S 下 标 向 右 移动 一 个 单位 ， 继 
续 比 对 直到 s, = A, ， 此 时 A 的 下 标 等 于 lengih(A)， 算 法 结束 , 
则 “交大 ”为 “上 海 交 通 大 学 ”的 简称 。 
3.3 词 的 拆 分 模式 
3.3.1 汉字 拆 分 
根据 汉字 的 构成 单位 可 把 汉字 分 为 独 体 字 、 合 体 字 两 类 。 
独 体 字 (日 、 月 等 由 笔画 构成 ， 合 体 字 ( 休 、 取 等 》 则 由 偏 
旁 构成 。 现 代 汉字 的 拆 分 ， 要 充分 认识 汉字 的 组 成 规律 ， 要 根 
据 符合 中 国人 书写 习惯 的 规则 来 拆 分 .汉字 的 空间 上 的 关系 有 : 
相交 、 相 离 、 相 接 b1。 汉 字 的 方位 上 的 关系 有 : 上 下 、 左 右 ， 
内 外 、 框 架 、 独 体 。 
为 了 使 每 个 汉字 有 一 个 全 国 统一 的 代码 ， 我 国 颁布 了 汉字 
编码 的 国家 标准 :《 信 息 交 换 用 汉字 编码 字符 集 》na。 区 位 码 是 


= 


定 每 次 A 的 下 标 ,直到 5,650…s =aa…as ， 则 匹配 成 功 ， 所 
以 A 是 包含 于 S 的 拆 分 变形 体 。 


4 ”实验 与 分 析 


本 实验 在 具有 2.4GHz Inter(OCoreTM is 处 理 器 8GB 内 存 的 
机 器 上 运行 ， 操 作 系 统 为 windows 10， 编 程 语言 为 Java。 
4.1 数据 集 

为 了 评估 面向 中 文敏 感 词 变形 体 的 识别 方法 的 效果 ,从 搜 
狗 实 验 室 (http:/www.sogou.comylabs/) 的 SogouCA( 版 本 : 2012) 
全 网 新 闻 数 据 库 中 随机 抽取 了 含有 疑似 敏感 词 的 800 篇 新 闻 文 
本 (包含 科技 、 体 育 、 金 融 、 社 会 、 娱 乐 等 题材 ) 作 为 测试 数据 集 。 
对 数据 集中 的 敏感 词 及 其 变形 体 进 行人 工 的 识别 和 分 类 ， 共 发 
现 67 个 敏感 词 及 其 变形 体 400 个 ， 涵 盖 了 词 的 拼音 、 词 的 简 
称 、 词 的 拆 分 三 种 变形 体 情 况 ， 并 将 识别 出 的 敏感 词 存 入 敏感 


一 个 四 位 的 十 进 制 数 ， 每 个 区 位 码 都 对 应 着 一 个 唯一 的 汉字 或 


词 表 中 。 在 实验 中 ,首先 对 以 上 67 个 敏感 词 进行 人 工 拆 分 ， 再 
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将 敏感 词 变形 体 的 
个 ， 第 二 组 为 160 
五 组 为 400 个 。 数 
表 6 所 示 。 


以 


圭 


数据 集 随 


入 
个 ， 第 


据 集中 


外 


7 


mH 


站 机 分 成 5 组 进行 测 


三 组 为 240 个 ， 第 四 
所 抽取 的 敏感 词 


长 6” 敏感 词 及 其 变形 体 举 例 


试 , 第 一 组 
组 为 320 个 ， 


为 80 


a 
2 


变形 体 的 部 分 举例 如 


词 的 拼音 


falungong 


xingfenji 


fanmaidupin 


Xijing 


变形 体 
词 的 简称 
fg 


字 的 
7 去 车 仑 工 力 
兴 大 


xf 


贩毒 fmdp 


贝 反 卖 毒 


口 口 


x 龙 衣 敬 言 


4.2 实验 分 析 
在 实验 中 ， 通 


过 算法 


的 准 


面 来 验证 敏感 词 变 
0 为 91%, 将 让 


只 别 结 


识别 为 假 ， 实 际 为 假 (TN); 
(FN)。 其 中 ， 查 全 率 =TP/ (TP+FP)， 


为 假 ， 实 际 为 


形体 识 


吉 果 分 为 四 种 情况 : 识 


别 算法 的 有 效 性 


LE 确 来 、 查 全 率 和 运 


行 时 间 三 个 方 
。 设 词 的 拼音 模式 中 


! 别 为 


, 实际 为 真 


识别 为 真 ， 


=TP/ (TP+FN)。 实 验 结果 如 表 7 所 示 。 


表 7 实验 结果 


实际 为 假 (CFP ); 
准确 率 


识别 


洋 
请 
浪 
+ 


TP 


71 
160 135 
240 211 
320 285 


400 357 


| 


基于 变形 体 的 中 文字 符 串 


FN 


准确 率 


92.22% 
92.47% 
91.73% 
93.13% 
93.70% 


识别 算法 


运行 时 
(s) 
0.95 
1.11 
1.87 
.53 
3.46 


间 


通过 上 述 实验 

别 算法 的 平均 查 全 
率 方面 ， 
低 的 原因 可 能 是 
复杂 ， 本 文 所 提出 


数据 量 的 增加 查 全 率 基本 稳定 在 89%; 


五 组 数据 集 


结果 可 


率 和 准 


于 被 识 
的 识别 


以 计算 出 基于 变 


中 最 低 查 全 率 为 84.38%， 
的 敏感 词 及 其 变形 体 实际 


别 


体 的 
确 率 分 别 为 87.87%、92.65%, 在 查 全 
导致 该 组 结果 偏 


情况 比较 


文字 符 串 识 


i 


规则 还 需 进 


步 的 改进 和 优化 ; 


集 均 高 于 91%， 且 


住 确 率 


在 准确 率 方 本 


| 五 纪 


随 着 
日 数据 


接近 94%; 


上 一 -、 
| 


着 数据 量 的 增加 ， 运 行 时 间 


也 有 相应 的 增加 。 


所 提出 算法 在 实验 


中 均 已 


4.3 实验 结论 
对 不 同 的 


现 : 本 文 提 出 的 算法 在 查 全 率 、 准 


有 较 稳 定 的 体现 ， 


5 ”结束 语 


本 文 所 提出 的 方法 能 够 根据 词 的 # 


分 三 种 中 文字 符 的 


数据 自 


mt 


得 到 了 较为 理 


进行 实验 ， 根 据 上 


证 明了 


变形 体 识 


所 提出 算法 的 可 行 怕 


在 运行 


时 间 方 


硬 ， 随 


综 上 所 述 


想 的 效果 。 


别 出 其 相关 的 敏感 词 ， 


， 本 文 


述 实验 结果 可 以 发 
确 率 和 运行 时 间 的 指标 上 均 
E 和 有 效 性 。 


音 、 词 的 简称 和 词 的 拆 


甫 助 提高 


[本 


CTP ); 


es 
Ne 加 pa | 
付 聪 ， 等 : sy ,i 
审查 的 准确 率 和 效率 。 实 验证 明 本 文 所 提出 的 方法 可 较为 准确 
的 识别 出 中 文字 符 串 的 各 种 变形 形式 ， 有 效 提高 敏感 词 审查 的 
确 度 ， 其 效果 也 更 接近 于 人 脑 识别 的 结果 。 但 是 词 的 拆 分 需 
要 人 工 进 行 操 作 ， 当 敏感 词 较 多 的 时 候 ， 工 作 量 会 比较 大 ， 所 


以 汉字 的 自动 拆 分 是 非常 重要 的 ， 这 也 是 下 一 步 的 工作 。 
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